package org.groupg.tika;

import org.apache.tika.Tika;


import java.io.File;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.tika.exception.TikaException;

public class GetContentText {

    /**
     *
     */
    public static void tika() throws IOException, TikaException {
        Tika tika = new Tika();
        String[] tt = new String[]{
                "C:\\Users\\ligen\\Desktop\\银行业金融机构法人名单（截止20220630）.pdf"
//                ,"C:\\Users\\ligen\\Desktop\\银行业金融机构法人名单（截止20220630）.docx"
        };

        for (String file : tt) {
            System.out.println(file);
//            System.out.println(tika.detect(new File(file)));
            String text = tika.parseToString(new File(file)); // 这句话可以直接获取文件的内容
            System.out.print(text);
        }
    }

    public static void main(String[] args) throws Exception {
//        tika();
        Tika tika = new Tika();
        String text = tika.parseToString(new File("C:\\Users\\ligen\\Desktop\\银行业金融机构法人名单（截止20220630）.pdf"));
        // 在字符串中筛选 第x页 共384页并删除
        String pattern = "第[0-9]\\s*页\\s*共384页\\s*";
        // 创建 Pattern 对象
        Pattern r = Pattern.compile(pattern);
        // 获取检索结果
        Matcher m = r.matcher(text);
        while (m.find()){
            m.group();
        }
    }


}
